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摘 要 : 棉花 叶片 含水 量 的 及 时 准确 监测 对 于 评价 棉花 生长 状态 具有 重 
花 叶片 含水 量 , 以 新 疆 渭 干 河 - 库 车 河 三 角 洲 绿洲 
数据 为 基础 ,采用 分 数 阶 微 分 对 原始 光谱 进行 处 
样 算法 (Competitive adaptive reweighted sampling, CARS) 、 连 续 投 影 算法 (Successive projections algo- 


作用 。 为 了 精准 估算 棉 
田间 尺度 上 棉花 叶片 的 高 光谱 数据 和 叶片 水 分 


E ,通过 相关 系数 分 析 法 、 竞 争 性 自 适 应 重 加 权 采 


Je 


rithm, SPA) ,3& £z A 3X (Genetic algorithm , GA ) , 蒙特 卡 罗 无 信息 变量 消除 算法 (Monte Carlo uninfor- 
mative variables elimination ,MC-UVE) 以 及 将 CARS 与 SPA 耦合 等 方法 利 选 特征 波段 ,采用 基于 鲸 
鱼 优 化 算法 (Whale optimization algorithm, WOA) 改进 随机 森林 回归 (Random forest regression , RFR) 


建立 全 波段 和 特征 波段 的 叶片 水 分 含量 反 演 


模型 ,并 使 用 独立 样本 进行 验证 分 析 。 结 果 表 明 : 


(1) 不 同 特征 波段 算 选 方法 得 到 的 波段 数量 与 位 置 不 同 ,其 中 MC-UVE 所 得 特征 波段 数量 为 8 个 ， 
CARS 所 得 特征 波段 数量 为 38 个 。SPA .GA 与 CARS-SPA 方 法 中 特征 波段 位 置 较为 一 致 ,基本 集中 
在 近 红 外 的 950~1050 nm 范围 内 。(2) CARS-SPA-WOA-RFR 模型 反 演 效果 最 好 ,模型 预测 值 决 定 
系数 ( 尼 )=0.93 , 均 方 根 误差 (Root mean square error, RMSE )=0.032。 最 终 构 建 的 模型 可 为 准确 快速 


地 监测 棉花 旱情 以 及 精准 灌溉 提供 决策 依据 。 
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我 国 作 为 最 大 的 棉花 生产 国 , 主 要 生产 区 域 集 
中 在 新 疆 棉 区 黄河 流域 槐 区 .长 江 流域 栅 区 " 。 其 
中 ,新 疆 棉花 种 植 规 模 和 产量 均 居 全 国 首位 ”。 棉 


weighted sampling, CARS) 、 连 续 投影 算法 ( Succes- 
sive projections algorithm, SPA) , 3t 传 算 法 ( Genetic 
algorithm , GA) 随机 森林 (Random forest,RE) 与 蒙特 


花生 长 过 程 中 通过 叶片 进行 光合 作用 产生 其 所 需 
要 的 能 量 ,而 叶片 含水 量 对 于 监测 生理 状态 .评估 
作物 长 势 . 反 映 土 壤 丧 傅 等 具有 重要 作用 。 因 此 ， 
快速 有 效 地 获取 叶 卢 水 分 含量 对 于 干旱 半 干 旱 区 
棉花 生长 ,产量 评估 .旱情 评价 等 具有 重要 意义 。 

高 光谱 遥感 技术 凭借 快速 准确 和 无 损 的 优势 
殉 服 了 传统 的 实验 室 测量 叶片 含水 量 数据 耗 时 耗 
力 、 具 有 破坏 性 、 无 法 快速 昌 大 面积 地 获取 棉田 的 
水 分 数据 的 不 足 , 已 被 广泛 运用 于 作物 水 分 反 演 
中 ,并 取得 了 许多 成 果 ””。 以 往 研究 大 多 采用 竞争 
性 目 适 应 重 加 权 采 样 算法 (Competitive adaptive re- 
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上 E 罗 无 信息 变量 消除 算法 (Monte Carlo uninforma- 
tive variables elimination, MC-UVE) 25 77 1: ffi ve d fF 
波段 或 构建 植被 指数 ,借助 偏 最 小 二 乘 回 归 (Partial 
least squares regression, PLSR) , 3c Fẹ mP) Œ JL E UH 
(Support vector machine regression , SVR ) ,Jx |] fz f& 
(Back propagation , BP) fIl RF SENLA Z 2J Jr 1 ££ vr. 
反 演 模型 ”。 如 Sun 等 “采用 SPA、CARS ,逐步 回归 
(Stepwise regression, SR) LR er 27 1s ii Pe T E 
长 ,使 用 多 元 线性 回归 (Multivariable linear regres- 
sion, MLR ) 建 立 茶叶 叶 片 水 分 含量 的 反 演 模型 , 结 
RRHH CARS-SR 方 法 所 构建 模型 效果 最 优 。Li 等 " 
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采用 CARS SPA RF 与 联合 间隔 偏 最 小 二 乘 (Syner- 
gy interval partial least squares , SiPLS) 77 1 fifi ve TE fiE 
波段 ,运用 最 小 二 乘 文 持 回 量 机 (Least-squares sup- 
port-vector machines,LSSVMI) 模 型 反 演 柠檬 叶片 的 
叶绿素 ,决定 系数 ( 尼 ) 达 0.94。 杨 宝 华 等 “使 用 MC- 
UVE, B BL: BE, CARS 与 移动 窗口 偏 最 小 二 乘 
(Moving window partial least squares, MWPLS) 方 法 
筛选 特征 波段 ,使 用 BP、SVR 55 £e [8] AE PR (Radial 
basis function, RBF ) 建 立 小 麦 冠 层 氮 含 量 的 估 测 模 
型 , 结 采 表明 CARS-RBF 模 型 尼 为 0.998。 以 上 研究 
表明 ,CARS 在 往 选 特征 波段 方面 能 取得 较 好 的 效 
Ao MIKESE” HU HIE ^ [HB] SPA roe a 4E IT 
片 损 素 含量 与 地 上 部 生物 量 的 特征 波段 ,利用 PLSR 
建立 反 演 模型 取得 了 较 高 的 反 演 精度 。 众 多 学 者 
利用 不 同 的 筛选 方法 对 作物 属性 的 定量 监测 进行 
了 大 量 的 研究 ,并 且 取 得 了 显著 的 成 果 。 因 此 , 选 
择 合适 的 特征 波段 负 选 方法 对 于 利用 光谱 反 演 作 
物 水 分 尤为 重要 。 

相 较 于 传统 的 MLR SR 以 及 岭 回归 等 预测 精度 
低 、 易 受 变 量 及 样本 数量 影响 的 缺点 ,机 带 学 习 算 
法 有 效 弥 补 了 不 足 , 比 如 SVM 和 RF 模型 广泛 应 用 
于 叶片 水 分 ”叶绿素 "以 及 土壤 有 机 质 和 pH 
相关 研究 中 。 与 此 同时 各 种 优化 算法 也 发 展 迅速 ， 
比如 粒子 群 优化 算法 (Particle swarm optimization al- 
gorithm, PSO) 、 极 限 学 习 机 (Extreme learning ma- 
chine, ELM ) fff f& (JC 45 $1 1X (Whale optimization al- 
gorithm, WOA) 等 广泛 应 用 于 传统 机 器 学 习 的 优化 
中 ,其 中 WOA 具有 原理 简单 易 懂 、 和 需要 调 市 参数 
少 精度 高 收敛 过 程 迅 速 和 不 易 陷入 局 部 最 优等 
特点 ”“。 如 Zhou 等 “使 用 双 OA 对 SVM 模型 进行 参 
数 寻 优 ,其 改进 后 的 WOA-SVM 模 型 与 SVM ANN 模 
型 相 比 能 够 获得 很 好 的 建 模 精度 。Zhao 等 “运用 
WOA 进行 参数 优化 ,与 LSSVM 相 结合 实现 了 对 
PM2s 的 准确 预测 。 

针对 当前 区 域 的 棉花 水 分 研究 中 大 多 采用 线 
性 回归 SVR 与 随机 森林 回归 (Random forest regres- 
sion, RFR) 方 法 ”中 ,WOA 在 基于 光谱 测算 作物 水 
分 方面 的 应 用 鲜 有 报道 。 尤 其 是 反 演 精度 和 拟 合 
效果 等 方面 还 未 进行 深入 的 研究 ,因此 将 WOA 应 
用 于 作物 含水 量 的 研究 尤为 重要 。 本 人 研究 以 棉花 
叶片 水 分 含量 为 研究 对 象 ,使 用 分 数 阶 微分 对 光谱 
进行 预 处 理 ,采用 6 种 特征 波段 科 选 方法 ,基于 


WOA 改进 RFR 算 法 (WOA-RFR ) 构 建 棉花 叶片 含水 
量 的 反 演 模型 ,并 通过 独立 样本 对 模型 进行 验证 ， 
为 快速 准确 地 监测 棉花 叶片 含水 量 提 供 技 术 支 持 。 


1 材料 与 方法 


1.1 研究 区 概况 

渭 干 河 - 库 车 河 三 角 洲 绿洲 (简称 渭 - 库 绿洲 )， 
位 于 新 疆 阿 克 苏 地 区 ,地 处 塔里木 盆地 北部 ,天山 
南部 ,是 一 个 典型 的 山 前 冲积 扇 平 原 ( 图 1)。 研 究 
区 属于 典型 的 大 陆 性 暧 温带 干旱 气候 ,年 均 气 温 为 
10.5~11.4% ,山区 多 年 平均 降水 量 为 243.0 mm , 平 
原 区 多 年 平均 降水 量 为 46.5 mm, 平 原 区 年 平均 蒸 
REH 1374 mm, 具 有 人 气候 干旱 、 降 水 稀少 、 风 沙 频 
繁 等 特点 ”。2011 年 统计 数据 显示 , 渭 - 库 绿洲 棉花 
种 植 面积 分 别 占 新 疆 全 性 、 阿 克 苏 地 区 的 8.56% , 
38.2% ,产量 分 别 占 8.41% 40.34% ,是 新 疆 主 要 的 棉 
花生 产 区 域 之 一 下 。 本 次 试验 田 位 于 库 车 市 中 东部 的 
乌 尊 镇 ,地 理 坐 标 介 于 41°31’29.65”~41°49'6.73”N,， 
83°00'13.7”~83°19'15.95'E 之 间 。 研 究 区 主要 经 济 
作物 有 棉花 、 辣 椒 等 ,种 植 品 种 为 陆地 棉 , 种 植 行距 
70 cm, 株距 10 cm; 按照 新 疆 农 业 农 村 厅 农 业 技 术 
推广 总 站 的 要 求 合 理 施肥 和 管理 ,全 生育 期 一 般 喷 
施 缩 节 胺 5 次 左右 ,分 别 在 苗 期 .二 叶 期 \ 头 水 前 以 
及 打 顶 后 5d 及 12 4 各 喷 施 一 次 ,6 一 8 月 每 隔 7 d.8 
d 滴 灌 一 次 ,8 月 25 日 前 结束 灌水 施肥 。 
12 叶片 光谱 测定 及 处 理 

实验 室 团 队 于 2018 年 7 月 5 一 9 日 在 新 疆 阿 克 
苏 地 区 库 车 市 乌 尊 镇 开展 叶片 光谱 测定 试验 。 使 
JH ASD Field Spec Hand Held 便携 式 光谱 仪 测定 棉 
花 叶片 高 光谱 数据 ,波长 范围 为 325~1075 nm ,光谱 
测量 时 选择 太阳 辐射 相对 稳定 且 无 风 无 云 的 天 气 ， 
测量 时 间 为 11:00 一 14:00, 将 探头 置 于 棉花 叶片 垂 
直上 方 2$ cm 处 ,设置 光谱 扫描 时 间 为 8 s, 每 个 样 点 
测 6 次 ,每 3 次 光谱 测定 后 利用 白板 进行 标定 ,以 消 
除 光 线 变 化 对 光谱 的 有 影响" 中。 测定 样本 选择 无 病 
虫害 、 冠 层 生长 均匀 一 致 的 棉花 冠 层 , 选 择 其 中 第 
二 或 者 第 三 片 棉 叶 进行 光谱 测定 。 测 得 反射 率 数 
据 使 用 ViewSpec PRO 计 算出 每 个 样 点 6 条 曲线 的 
平均 值 作 为 该 点 的 反射 光谱 , 共 采 集 到 100 个 花 铃 
期 棉花 叶片 样本 ,命名 为 数据 集 工 。 为 了 更 好 地 验 
证 所 选 模型 的 稳定 性 ,选择 2021 年 5 月 26 日 至 6 月 
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(c) 棉花 田间 


(b) 棉花 叶片 采样 点 


(e) 棉花 叶片 
i j 


河流 [ — 研究 区 


图 1 研究 区 位 置 与 采样 点 分 布 


Fig. 1 Study area location and sampling point distribution 


3 日 测定 的 125 个 新 陆 早 35 号 苗 期 棉花 叶片 样本 作 
为 数据 集 工 进行 再 次 验证 。 

分 数 阶 微分 在 图 像 增 强 处 理 和 信和 号 分 析 等 领 
域 被 广泛 的 使 用 ,多 用 来 细 化 光谱 信息 。 其 原理 是 
将 整数 阶 微分 的 阶 数 以 0.1 为 步 长 扩展 至 0~2 阶 。 
常用 的 分 数 阶 微分 包括 Riemann-Liouville „Caputo 和 
Griinwald-Letnikov 3 种 类 型 ,其 中 Griinwald-Letnikov 
定义 的 微分 形式 较为 沼 用 , 故 用 其 对 叶片 高 光谱 数 
据 进行 处 理 ””。 微 分 公式 为 : 


TIO e füye caf - D* à 
| 

-a(-a + 1) I (-a* 1) 

— 5 40-2* pe PxUPGCaep 679 


P: I N Gamma 函数 ; a 为 任意 阶 数 ; 4 为 对 应 
的 波长 点 ; f (A) 29 A BERG d 为 分 数 阶 微分 的 下 
限 ;m 为 微分 上 下 限 之 差 。a 为 小 数 时 , 则 为 分 数 阶 
微分 变换 。 


1.3 叶片 含水 量 测定 
采集 光谱 测定 后 的 叶片 立刻 使 用 0.001 g 的 电 

子 天 平 称 取 每 个 叶片 重量 , 记 为 鲜 重 。 然 后 立刻 置 
于 保鲜 袋 内 ,当日 野外 试验 完成 后 ,在 实验 室内 进行 
样本 的 干燥 处 理 。 使 用 烘箱 在 105 % 下 杀青 30 min, 
然后 以 恒温 80 % 烘 干 ,直至 恒 重 后 再 测量 叶片 干 
重 。 叶 片 含水 量 (LWC) 计 算 公 式 如 下 : 
LWC= m x 100% 


(2) 


式 中 :FW 为 棉花 叶片 鲜 重 (g);DW Alden Hr T 
(g). 
14 建 模 集 和 验证 集 的 划分 

使 用 随机 抽样 方法 将 采集 的 样本 进行 分 类 , 数 
据 集 工 中 70 个 作为 建 模 集 ,剩余 30 个 作为 验证 
集 。 数 据 集 卫 中 按 相同 比例 抽取 38 个 为 验证 集 。 
各 分 组 统计 量 见 表 1。 经 统计 分 析 ,在 数据 集 工 和 
I 中 ,样本 集 、 建 模 集 和 验证 集 各 项 指标 都 比较 接 


R1 棉花 叶片 含水 量 统计 分 析 


Tab.1 Descriptive statistic of cotton leaf water content 


数据 类 型 样本 类 型 样本 数 /个 

数据 集 I 建 模 集 70 
验证 集 30 
样本 集 100 

数据 集 工 验证 集 38 
样本 集 125 


叶片 水 分 含量 /% 
均值 标准 偏差 变异 系数 
78.34 0.043 5.54 
77.30 0.042 5.40 
78.03 0.043 5.50 
79.00 0.074 9.35 
77.79 0.080 10.26 
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近 , 表 明 样 本 划分 满足 随机 性 和 代表 性 ,符合 光谱 
技术 建 模 的 要 求 。 
1.5 光谱 特征 变量 筛选 方法 

为 评价 各 种 筛选 方法 对 叶片 水 分 反 演 的 效果 
与 作用 ,采用 6 种 特征 变量 筛选 方法 以 及 3 种 机 需 
学 习 模 型 进行 反 演 ( 表 2、 图 2)。 为 了 充分 发 挥 分 数 
阶 微分 在 细 化 光谱 信息 中 的 作用 ,以 提高 建 模 效 
有 果 , 本 文采 用 分 数 阶 微分 处 理 原 始 光 谱 数 据 , 以 相 
关系 数 (CC) 分 析 法 旬 选 特征 波段 。 而 CARS SPA、 
GA 、MC-UVE 以 及 CARS-SPA 则 使 用 原始 数据 进行 
筛选 。 
1.6 模型 构建 与 验证 

本 人 研究 所 用 的 机 屁 学 习 方 法 为 WOA-RFR, 并 
与 目前 常用 的 SVR 和 RFR 模 型 对 比分 析 。 

WOA 是 Mirjalili 等 于 2016 年 提出 ,该 算法 仿 
照 座 头 鲸 的 泡 泡 网 疯 食 方法 ,通过 收缩 包围 螺旋 


位 置 更 新 以 及 随机 捕食 行为 捕猎 ,进而 建立 数学 模 
型 ,是 一 种 群体 智能 算法 。 
1.61 €, E 2 95 在 捕猎 过 程 中 ,以 距离 目标 狂 物 
最 近 的 座 头 钱 位 置 为 最 优 位 置 ,其 他 座 头 鳅 向 该 位 
置 运动 以 完成 包围 猎物 。 该 表达 式 为 : 
D=|CX'(W) -XO| (3) 
X(t* 1-2 X () -AD (4) 
式 中 :D 为 最 优 个 体位 置 与 当前 个 体位 置 的 距离 ; 
和 (为 当前 最 优 解 的 位 置 向 量 ; X(i) 为 当前 解 的 位 
置 向 量 ; X(+ 1) ARAE E t RRRA A 
和 CHERE ,其 具体 数学 表达 式 分 别 为 : 
A -2ar,-a (5) 
Cer (6) 
式 中 :nr 与 ,为 值 在 [0, 1j 中 的 随机 向 量 ;a 为 迭代 搜 
索 中 从 2 线性 减 小 到 0, 其 数学 表达 式 为 : 


表 2 HEFER EMED A 


Tab.2 Spectral characteristic variable screening methods 


变量 筛选 方法 描述 

CC 运算 效率 高 ,过 程 简单 。 变 量 间 存在 共 线 性 。 

CARS 有 效 去 除 自 相关 性 高 的 波段 ,适合 高 维 数据 的 筛选 人 ”。 变 量 间 存 在 共 线 性 ,选择 波段 稳定 性 低 。 

SPA 变量 间 宛 余 少 , 共 线 性 最 小 ,缩短 建 模 时 间 针 。 没 有 考虑 所 有 特征 波长 之 间 的 共 线 性 四 ;挑选 特征 变量 过 程 中 倾向 于 选 
择 共 线性 较 小 的 变量 点 而 不 是 有 效 变 量 点 局。 

GA 具有 全 局 优化 能 力 。 但 需要 多 次 运算 以 确定 最 佳 变量 子 集 。 

MC-UVE 稳定 性 较 高 。 需 要 定义 阔 值 ,导致 变量 数目 改变 。 

CARS-SPA 进一步 剔除 元 余 信 息 ,提取 出 有 效 波段 上 且 多 重 共 线 性 较 低 ,运算 效率 较 高 "。 筛 选 变量 较 少 , 容易 丢失 关键 信息 。 特 征 


波长 集 建 模 效果 受 粗 选 算法 结果 的 影响 较 大 ™。 


注 :CC 为 相关 系数 ;CARS 为 苋 争 性 自 适 应 重 加 权 采 样 算 法 ;SPA 为 连续 投影 算法 ;GA 为 遗产 算法 ;MC-UVE 为 蒙特 卡 罗 无 信息 变量 消除 算 


法 。 下 同 。 


光谱 预 处 理 


叶片 光谱 测量 


CC-WOA-RFR 
CARS-WOA-RFR 
SPA-WOA-RFR 
GA-RFR 
MC-UVE-SVR 
CARS-SPA-WOA-RFR 


CARS-SPA-WOA-RFR 


注 :CC 为 相关 系数 ;CARS 为 竞争 性 自 适 应 重 加 权 采 样 算法 ;SPA 为 连续 投影 算法 ;CA 为 遗传 算法 ; 
MC-UVE 为 蒙特 卡 罗 无 信息 变量 消除 算法 ; 双 OA 鲸鱼 优化 算法 ;SVR 为 支持 向 量 机 回归 ;RFR 为 随机 森林 回归 。 下 同 。 
图 2 实验 及 模型 计算 流程 图 


Fig. 2 Flow chart of calculation for experiences and models 
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a-2-2.t- (7) 


式 中 ; ,为 最 大 迭代 次 数 。 

1.6.2 螺旋 泡 泡 网 攻击 通过 不 断 收缩 包围 机 制 和 

更 新 螺旋 位 置 两 种 机 制 进行 攻击 EISE IS fs B LT 

网 行为 建立 数字 模型 。 首 先 计 算 与 猎物 之 间 的 距 

离 ,建立 螺旋 运动 的 数学 模型 。 表 达 式 为 : 
X(t- 1) 2 X (t) * De" cos 2l) 
^ -|X'() - xq) 


(8) 


IP: D, 为 猎物 与 鲸鱼 之 间 的 距离 ;为 对 数 螺 旋 
系数 ;1 为 (-1, 1) 区 间 内 的 随机 数 。 
1.6.8 搜索 猎物 座 头 鲜 除 了 利用 螺旋 泡 泡 网 搜索 
目标 猎物 外 , 还 会 根据 与 猎物 之 间 的 位 置 进行 随机 
运动 寻找 猎物 。 该 行为 根据 回 量 4 的 变化 进行 选 
择 ,4A 在 (-1,1) 之 外 取 随 机 值 ,使 得 鲜 色 去 搜寻 更 合 
适 的 目标 ,从 而 提高 全 局 寻 优 的 能 力 。 数 学 模型 为 : 
D - CX , (0) - X(t) (9) 
X(t * D) - X, (0) - AD (10) 
式 中 :XX, EE EDS PE BEP Doe P BP PISBU 
置 向 量 **。 
根据 实验 结果 ,在 本 人 研究 中 设置 鲜 鱼 进化 参数 
为 30, 种 群 规模 N=20。 进 而 优化 回归 树 棵 数 .回归 
树 最 大 深度 、 市 点 划分 所 需 最 小 样本 数 、 叶 子 节 点 
模型 预测 精度 选取 尼 、 建 模 集 和 验证 集 均 方 根 
误差 (Root mean square error, RMSE) ) 作 为 衡量 标 
准 。 尺 越 接近 1, 表明 模型 精度 越 高 , 拟 合 效果 越 
好 ,预测 值 和 实测 值 之 间 的 相关 性 越 强 。RMSE 是 
衡量 模型 预测 值 误差 大 小 的 指标 , 值 越 小 模型 的 预 
算 估 测 能 力 越 好 。 计 算 公 式 如 下 : 


及 = 二 -一 一 (11) 


RMSE = m (12) 
AP: 广 为 模 型 预测 值 ; y; 为 实测 值 ; 7 为 实测 值 的 
平均 值 ; n 为 样本 个 数 。 
2 结果 与 分 析 


2. 光谱 特征 变量 筛选 方法 结果 与 分 析 
本 研究 中 利用 CC CARS, SPA, GA. MC-UVE Și 


CARS-SPA 方 法 对 光谱 数据 进行 特征 波段 选择 。 

CC: 对 原始 光谱 反射 率 以 0.2 为 间隔 ,在 0~2 阶 
进行 微分 处 理 。 由 图 3 可知, 光谱 数据 经 分 数 阶 微 
分 变换 后 ,在 8 个 阶 次 中 有 通过 0.01 显著 性 水 平 检 
验 的 波段 ,CC 绝对 值 最 大 为 0.379。 叶 片 原始 光谱 
和 分 数 阶 微分 处 理 后 光谱 与 叶片 含水 量 逐 波段 做 
Pearson 相关 分 析 ( 以 1.3 Br 2 f] ) ,得 出 CC 在 各 波长 
上 的 分 布 图 (图 4)。 原 始 光 谱 各 波段 均 未 能 通过 
0.01 水 平 的 显著 性 检验 ,因此 ,采用 分 数 阶 微分 方法 
对 原始 光谱 进行 处 理 , 以 提高 相关 性 水 平 。 经 过 分 
数 阶 微分 处 理 ,避免 了 信息 遗漏 ,对 消除 噪声 有 一 
定 的 效果 ,提升 了 光谱 的 表达 能 

CARS: 随 着 不 断 迭 代 ,特征 波长 数量 减 小 速度 
逐渐 变 绥 , 表 明 CARS 算 法 在 筛选 特征 波段 中 具有 


CC 


19 0.38 
1.7L 
0.24 
1.5 
1.3 
B | | 0.10 
"m 
S 03 —0.04 
0.7 l 
0.5 
—0.18 
0.3 
0.1 
—0.32 


400 500 600 700 $800 2900 1000 
波长 /nm 
图 3 分 数 阶 微分 转换 光谱 与 栅 花 水 分 含量 之 间 的 相关 性 
Fig.3 Pearson correlations between cotton leaf water content 


and fractional-order derivative spectra 


一 13 阶 变换 后 光谱 曲线 -原始 光谱 曲线 
"TEE 


相关 系数 


400 500 600 700 800 900 
波长 mm 


1000 1100 


图 4 不 同 光谱 变换 形式 的 相关 性 分 析 
Fig. 4 Correlation analysis of different spectral 


transformation forms 
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“ 粗 选 ”" 和 “ 精 选 ”2 个 阶段 (图 5a)。 当 采样 次 数 约 为 
51 次 时 十 折 交 又 验证 均 方 根 误差 (RMSECV ) 最 小 ， 
即 图 中 竖 线 所 对 应 值 (图 5b)。 回 归 系 数值 不 断 变 
化 ,表明 运算 过 程 中 先 剔除 与 叶片 含水 量 相关 性 较 
弱 的 波段 ,而 后 又 剔除 了 与 叶片 含水 量 相关 性 强 的 
波段 (图 $c)。 分 析 发 现 , 当 采 样 次 数 为 第 51 次 时 ， 
RMSECV 最 小 ,共有 38 个 波段 ,提取 的 波段 数量 仅 
占 原始 波段 数 的 5% ,有 效 降低 了 光谱 信息 的 宛 余 。 

SPA: 图 6a 中方 格 所 示 为 最 优 子 集中 包含 的 样 
本 数 ,图 6b 中 方 格 所 示 为 最 优 子 集 的 波段 位 置 。 随 
着 筛选 变量 数量 的 增加 ,RMSE 迅速 上 升 , 当 变量 数 
为 10 时 ,RMSE 趋 于 稳定 ,为 0.032 ,表明 其 为 最 优 子 
集 。 通 过 SPA 算 法 共 提 取 10 个 特征 波长 , 占 原始 波 
段 的 1.3%。 

GA: 基 于 GA 算 法 的 特征 光谱 租 选 结果 (图 7)， 
本 研究 采用 50 次 运行 GA 算法 ,选取 结果 中 出 现 频 
率 较 高 的 10 个 波长 ,作为 最 终 的 特征 波段 子 集 。 

MC-UVE: 基 于 MC-UVE 算 法 的 波长 变量 筛选 


健 锦 涛 等 基于 特征 波段 选择 和 机 带 学 习 的 陆地 棉 叶片 水 分 估算 
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结果 (图 8), 通 过 对 全 波段 逐个 计算 稳定 性 值 ,最 终 
选 出 8 个 波长 作为 特征 波段 子 集 。 

CARS-SPA: 由 图 5 可 知 ,经 过 CARS 算 法 计算 
后 ,特征 波长 变量 较 多 ,波长 之 间 有 存在 共 线 性 的 
可 能 ,因此 耦合 CARS-SPA 模 型。 图 9a 中 方 格 所 示 
为 最 优 子 集中 包含 的 样本 数 , 图 9 中方 格 所 示 为 最 
优 子 集 的 波段 位 置 。 当 波段 数 为 10 时 ,RMSE 趋 于 
稳定 ,为 0.144, 表 明 其 为 最 优 子 集 。 通 过 CARS-SPA 
运算 以 后 , 共 提 取 10 个 特征 波长 , 占 原始 波段 的 
1.3% ,与 CARS 筛 选 变量 相 比 ,进一步 减少 了 计算 量 。 

上 述 6 种 变量 筛选 方法 所 得 波段 的 位 置 分 布 如 
图 10 所 示 。 通 过 分 析 发 现 ,MC-UVE 和 沛 选 变量 最 少 
共 8 个 ,CARS 最 多 共 38 个 。SPA .GA、CARS-SPA 所 
筛选 波段 较为 集中 ,主要 分 布 在 紫外 区 和 近 红 外 
区 ,其 近 红外 区 为 叶片 含水 量 的 敏感 区 域 。 
2.2 模型 建立 与 分 析 

为 赋 究 不 同 变量 稀 选 方法 对 模型 精度 的 影响 ， 
对 全 波段 以 及 6 种 科 选 方法 的 结果 构建 入 OA-RFR 


(a) 变量 变化 趋势 (b) 十 折 交 又 验证 均 方 根 误差 (c) 每 个 变量 回归 系数 的 变化 
_ 恋 量变 化 趋势 一 误差 值 变化 趋势 MP v. 
ar --- 最 佳 运行 次 数 。 jj 0050 --- 最 佳 运行 次 数 400 SEREN 
600 TK 0.045 200 
E S 
s 0.040 g 0 
8 0.035 P -200 
0.030 -400 
性 
0.025 -600 
0 20 40 60 80 100 
运行 次 数 


图 5 CARS 方 法 筛选 变量 
Fig. 5 Key variables selected by CARS method 


(a) 选择 波长 个 数 


- 一 均 方 根 误差 
2 o 波长 个 数 
0 2 4 0 8 10 
模型 中 包含 波长 个 数 


1.0F b) 选择 波长 位 置 


0.8 


0.6 


一 光谱 曲线 
o 被 选中 波长 位 置 


反射 率 


0.4 
0.2 


0.0 
300 400 500 600 700 800 900 10001100 
波长 mm 


注 :RMSE 为 均 方 根 误差 。 下 同 。 
图 6 SPA 方 法 筛选 变量 
Fig. 6 Key variables selected by SPA method 
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25 


20 


被 选中 次 数 /次 


0 
300 400 3500 600 700 800 900 1000 1100 
波长 /nm 


图 7 GA 方 法 筛选 变量 图 
Fig.7 Key variables selected by GA method 


0.16 -. (a) 选择 波长 个 数 


RMSE 


0 2 A4 6 S8 10 12 14 16 
模型 中 包含 波长 个 数 
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300 400 500 600 700 800 2900 1000 1100 
波长 mm 


图 8 MC-UVE 方 法 筛选 变量 
Fig. 8 Key variables selected by MC-UVE method 


10r (b) 选择 波长 位 置 


反射 率 


一 光谱 曲线 
o 被 选中 波长 位 置 


300 400 500 600 700 $800 900 1000 1100 
波长 mm 


图 9 CARS-SPA 方 法 筛选 变量 
Fig. 9 Key variables selected by CARS-SPA method 


MC-UVE 


GA 


SPA 


变量 筛选 方法 


CARS 


CC 


300 400 500 600 


可 见 光 区 
CARS-SPA - € e 


近 红 外 区 
* ee. «r 


700 800 900 1000 1100 
波长 mm 


图 10 不同 变 量 筛选 方法 挑选 特征 波长 分 布 


Fig. 10 Selection of characteristic wavelength distribution by different variable Screening methods 


并 与 SVR 和 RFR 相 比较 。 

对 于 CC 分 析 法 ,经 过 分 数 阶 微分 处 理 后 ,通过 
0.01 显著 性 水 平 检验 且 波 段 数 量 大 于 10 个 的 阶 次 
建立 反 演 模型 。 如 表 3 所 示 ,选择 尺 最 大 日 RMSE 
最 小 的 阶 次 进行 建 模 分 析 , 相 比 其 他 阶 次 的 微分 变 


换 ,1.3 阶 微分 所 构建 模型 的 R—0.881, RMSEx 
0.019 ,说 明 此 阶 次 的 微分 处 理 效果 较 好 , 故 选 用 1.3 
阶 变换 进行 后 续 分 析 。 

由 表 4 可 知 , 全 波段 中 模型 预测 效果 均 较 差 , 而 
SPA-WOA-RFR 与 CARS-SPA-WOA-RFR 模型 的 建 
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微分 阶 数 


0.7 


0.9 


1.1 


1.3 


1.7 


1.9 


算法 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 


注 : 尼 为 决定 系数 ;RMSE 为 均 方 根 误 差 ; WOA 为 鲸鱼 优化 算法 ;SVR 为 支持 向 量 机 回归 ;RFR 为 随机 森林 回归 。 下 同 。 


变量 筛选 方法 


CC 


CARS 


SPA 


GA 


MC-UVE 


CARS-SPA 


算法 


WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 
RFR 
WOA-RFR 
SVR 


feng: 基于 特征 波段 选择 和 机 器 学 习 的 陆地 槐 叶片 水 分 估算 1843 
表 3 不 同 阶 微分 下 对 棉花 叶片 含水 量 的 建 模 结 
Tab.3 Modeling results of leaf water content of cotton under different order differential 
表达 式 R RMSE 
y=0.6934x+0.2403 0.894 0.017 
y=0.4627x+0.4201 0.553 0.029 
y=0.5463x+0.3546 0.885 0.021 
y=0.7086x+0.2290 0.846 0.018 
y=0.5242x+0.3706 0.650 0.026 
y=0.5545x+0.3491 0.882 0.021 
y=0.7086x+0.2254 0.877 0.017 
y=0.6291x+0.2896 0.767 0.022 
y=0.6121x+0.3045 0.897 0.019 
y=0.6778x+0.2522 0.927 0.016 
y=0.7505x+0.1953 0.881 0.016 
y=0.6206x+0.2976 0.898 0.019 
y=0.6381x+0.2816 0.844 0.020 
y=0.7293x+0.2117 0.889 0.016 
y70.5831x40.3271 0.893 0.020 
y=0.7061x+0.2293 0.851 0.018 
y70.6169x-0.3022 0.732 0.023 
y70.5676x40.3392 0.880 0.021 
表 4 时 卢 含 水 量 预 测 模型 在 建 模 集 与 验证 集 的 及 与 RMSE 
Tab.4 R'and RMSE of leaf water content prediction models in calibration and validation sets 
建 模 集 验证 集 
R RMSE R RMSE 
0.573 0.029 0.480 0.030 
0.375 0.032 0.035 0.037 
0.583 0.030 0.021 0.032 
0.927 0.016 0.946 0.017 
0.881 0.016 0.908 0.016 
0.898 0.019 0.950 0.022 
0.912 0.017 0.929 0.015 
0.688 0.040 0.977 0.033 
0.889 0.025 0.916 0.023 
0.937 0.016 0.941 0.015 
0.398 0.034 0.757 0.024 
0.913 0.022 0.964 0.022 
0.622 0.028 0.647 0.025 
0.712 0.024 0.723 0.002 
0.889 0.024 0.858 0.001 
0.847 0.020 0.868 0.016 
0.882 0.015 0.883 0.015 
0.852 0.025 0.821 0.024 
0.935 0.017 0.942 0.019 
0.326 0.036 0.568 0.029 
0.911 0.023 0.878 0.024 


RFR 
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模 集 与 验证 集 的 尾 和 RMSE 差异 较 小 ,表明 基于 
WOA 优化 的 RFR 模 型 较 稳定 。 综 合 考 虑 数据 集 的 
尼 和 RMSE ,选择 CC-WOA-RFR,CARS-WOA-RFR , 
SPA-WOA-RFR CA-RFR MC-UVE-SVR 和 CARS- 
SPA-WOA-RFR 作为 验证 数据 集 荆 的 模型 ,如 图 11 
所 示 , 所 选择 模型 的 拟 合 值 均匀 分 布 在 1:1 拟 合 线 


tó wn 
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两 侧 ,模型 拟 合 效 果 较 好 。 

为 了 验证 模型 稳定 性 ,使 用 数据 集 开 对 上 述 6 
个 模型 进行 再 次 验证 。 模 型 结果 如 网 12 所 示 ,CC- 
WOA-RFR 模型 结果 与 建 模 时 相 比 尼 较 低 ,表明 该 
模型 稳定 性 较 差 ,不 能 有 效 估 测 棉花 叶片 含水 量 。 
而 CARS-WOA-RFR .GA-RFR 与 MC-UVE-SVR 模型 
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图 12 数据 集 下 栅 花 叶片 水 分 会 量 实测 值 与 预测 值 散 点 图 


Fig. 12 Data set II scatter plot of measured and predicted cotton leaf water content 
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尼 均 较 低 ,实测 值 与 预测 值 误 差 较 大 。SPA-WOA- 
RFR 与 CARS-SPA-WOA-RFR 模型 反 演 精度 较 高 , 
R>0.913,RMSE<0.032。 上 述 模型 中 ,CARS-SPA- 
WOA-RFR 模型 尼 最 高 ,可 以 较为 准确 地 估 测 要 花 
叶片 水 分 含量 。 


3 讨论 


光谱 预 处 理 是 改善 数据 质量 和 提升 建 模 精 度 
的 必要 手段 ,本文 使 用 分 数 阶 微分 对 槐 花 叶 片 高 光 
谱 数 据 进 行 处 理 , 显著 提高 了 光谱 数据 与 叶片 水 分 
含量 的 相关 性 ,这 与 于 雷 等 和 吾 木 提 … 艾 山 江 等 ” 
对 土壤 和 小 麦 叶 片 光 谱 处 理 后 相关 性 水 平 得 到 提 
升 的 研究 结果 一 致 。 

高 光谱 数据 由 于 波段 较 多 ,包含 了 大 量 与 水 分 
不 相关 且 低 贡献 度 的 波段 ,全 波段 建 模 中 效果 较 
差 。 因 此 ,本 文通 过 6 种 波长 变量 筛选 方法 的 计算 ，， 
有 效 般 选 了 特征 波长 ,降低 了 数据 宛 余 , 建 模 效果 
15-81 557] , 3x 5j Zhang Se?" Han 40! Jia S238 FF] 
CARS SPA 等 方法 选择 特征 波长 中 所 得 结论 一 致 。 
寺 别 是 本 文通 过 CARS 与 SPA 方 法 的 耦合 更 加 有 效 
地 筛选 了 特征 波长 ,最 终 所 构建 模型 效果 最 优 , 这 
与 于 雷 等 所 得 到 的 结论 相 一 致 。 

不 同 的 机 需 学 习 模 型 对 于 同一 数据 的 预测 效 
果 会 有 部 分 差异 ,基于 WOA-RFR 的 棉花 叶片 水 
分 含量 反 演 模型 精度 优 于 SVR 和 RFR 模 型 ,日 通过 
独立 样本 集 检 验 后 模型 仍 较 稳 定 ,能 取得 较 好 的 反 
演 效 果 。 与 已 等 吕 Zhou S5 fl Mohammadi 等 号 的 
研究 结果 相同 , 即 基 于 WOA 算 法 改进 后 的 模型 预 
测 精度 均 能 得 到 有 效 提高 。 

本 研究 使 用 分 数 阶 微分 对 原始 光谱 数据 进行 
预 处 理 ,有 效 降 低 了 环境 对 光谱 数据 的 影响 ,但 是 
野外 数据 采集 依然 受到 土壤 、 大 气 和 周边 冠 层 等 影 
响 , 以 及 存在 地 域 差异 ,不 同 地 区 的 棉花 叶片 高 光 
谱 特 征 存在 略微 差别 。 导 致 所 选择 的 特征 波段 与 
前 人 研究 中 水 分 的 敏感 波段 有 部 分 差异 ,比如 CC、 
CARS 和 MC-UVE 方 法 所 选择 的 波段 位 置 出 现 一 定 
的 偏 移 ,多 集中 于 紫外 区 和 可 见 光 区 。 此 外 ,本 研 
究 使 用 2 个 不 同 生 育 期 的 数据 集 对 模型 进行 反复 验 
证 ,一 定 程度 上 克服 了 以 往 研 究 中 数据 集 单一 的 缺 
陷 。 但 最 终 所 估 测 结果 出 现 不 同 程度 的 “ 低 值 高 估 
与 高 值 低 估 ? 现 象 ,在 未 来 的 研究 中 需要 借助 更 加 
优化 的 机 器 学 习 算 法 对 本 模型 进行 验证 与 校正 , 进 


一 步 提高 模型 的 稳定 性 与 适用 性 。 
4 结论 


C1) 分 数 阶 微分 的 光谱 预 处 理 方法 可 以 提高 相 
关 性 水 平 。 其 中 ,0.7 阶 与 0.9 阶 处 理 效果 比较 明显 。 

(2) 不 同 的 特征 波段 科 选 方法 所 得 波段 数量 与 
位 置 均 有 差异 。 其 中 ,MC-UVE 所 得 变量 最 少 (8 
个 ),CARS 所 得 最 多 (38 个 )。SPA、GA、CARS-SPA 
所 筛选 波段 位 置 较为 一 致 ,CC 与 MC-UVE 差异 较 大 。 

(3) WOA-RFR 模型 在 反 演 中 取得 了 较 好 的 效 
果 。 通 过 数据 集 工 和 开 的 验证 ,CARS-SPA-WOA- 
RFR 模型 反 演 精度 较 高 。 模 型 预测 值 R7-0.93, 
RMSE=0.032 ,表明 该 模型 针对 不 同 生长 期 和 不 同 品 
种 棉花 叶片 含水 量 的 预测 均 可 以 取得 较 好 的 精度 。 
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Estimation of leaf water content in upland cotton based on feature band 
selection and machine learning 


CUI Jintaoü', Mamat SAWUT' 


(1. College of Geography and Remote Sensing Sciences, Xinjiang University, Urumqi 830046, Xinjiang, China; 2. Xinjiang Key 
Laboratory of Oasis Ecology, Xinjiang University, Urumqi 830046, Xinjiang, China; 3. Key Laboratory of Smart City and 
Environment Modelling of Higher Education Institute, Xinjiang University, Urumqi 830046, Xinjiang, China) 


Abstract: It is critical to ensure timely and accurate monitoring of leaf water content (LWC) when assessing the 
growth status of cotton. To accurately estimate cotton LWC, hyperspectral data, and leaf water data from cotton 
leaves in the oasis of the Ugan River-Kuqa River Delta, Xinjiang, China, were selected and processed using frac- 
tional differentiation of raw spectra. The sample were analyzed through correlation coefficient analysis, competi- 
tive adaptive reweighted sampling (CARS), successive projections algorithm (SPA), genetic algorithm (GA), 
Monte Carlo uninformative variables elimination (MC-UVE), and a combination of CARS and SPA to filter the 
feature bands. The modeling of the LWC inversion was executed through random forest regression (RFR) based 
on the whale optimization algorithm (WOA), and independent samples were used for validation analysis. The re- 
sults show that: (1) The disparities in the number and positions of the feature bands obtained using the different 
feature band screening methods are different, where the number of feature bands obtained through MC-UVE is 8 
while CARS produced 38. The positions of the characteristic bands identified through the SPA, GA, and CARS- 
SPA methods are considerably consistent and fundamentally concentrated in the near-infrared range of 950-1050 
nm. (2) The CARS-SPA-WOA-RFR model has the best inversion with an R^ of 0.93 and a root mean square error 
of 0.032. This model can provide a decision basis for accurate and rapid monitoring of cotton drought and preci- 
sion irrigation. 
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